---
sidebar_position: 1
---

# 🟢 AI سے تیار کردہ ٹیکسٹ کا پتہ لگانا

AI سے تیار کردہ ٹیکسٹ کا پتہ لگانا حفاظتی محققین اور معلمین کے لیے ایک بڑا مسئلہ ہے،
دوسروں کے درمیان. ٹولز جیسے [GPTZero](https://gptzero.me)، [GPT2 ڈیٹیکٹر](https://openai-openai-detector.hf.space)، اور [دو لسانی ڈیٹیکٹر](https://github.com/Hello -SimpleAI/chatgpt-comparison-detection) نے نمایاں کامیابی دیکھی ہے،
تاہم، ان کو [دھوکہ دیا جا سکتا ہے](https://learnprompting.org/docs/miscl/trickery)۔

OpenAI اور دیگر محققین(@bansal2022certified)(@gu2022watermarking) اپنے تیار کردہ ٹیکسٹ میں شماریاتی واٹر مارکنگ متعارف کرانے کے لیے کام کر رہے ہیں، لیکن ٹیکسٹ کے بڑے حصوں میں ترمیم کر کے اسے بھی بے وقوف بنایا جا سکتا ہے۔

AI ٹیکسٹ کا پتہ لگانے کا مسئلہ ممکنہ طور پر ہتھیاروں کی دوڑ کا ہو گا کیونکہ نئے ماڈل اور پتہ لگانے کے نئے طریقے متعارف کرائے گئے ہیں۔ بہت سی کمپنیوں نے پہلے ہی ایسے حل تیار کرنا شروع کر دیے ہیں جن کے بارے میں وہ دعویٰ کرتے ہیں کہ یہ بہت موثر ہیں، لیکن اسے ثابت کرنا مشکل ہے، خاص طور پر وقت کے ساتھ ساتھ ماڈلز بدلتے رہتے ہیں۔

اس مضمون میں AI سے تیار کردہ ٹیکسٹ کا پتہ لگانے کے کچھ موجودہ طریقوں کا احاطہ کیا جائے گا، اور اگلا مضمون ان چند طریقوں پر بات کرے گا جو لوگوں نے انہیں بے وقوف بنانے کے لیے تلاش کیے ہیں۔

## اوپن اے آئی ٹیکسٹ کلاسیفائر

[OpenAI Text Classifier](https://platform.openai.com/ai-text-classifier) ایک عمومی مقصد والے AI ٹیکسٹ ڈیٹیکٹر میں کافی اچھی کوشش ہے۔
ماڈل کو بڑی مقدار میں AI سے تیار کردہ ڈیٹا اور اسی معیار کے انسانی تحریری ٹیکسٹ پر تربیت دے کر، ڈیٹیکٹر اس امکان کا حساب لگانے کے قابل ہوتا ہے کہ کوئی بھی ٹیکسٹ LLM کے ذریعے تخلیق کیا گیا ہو۔

اس کی بہت سی حدود ہیں — یہ 1000 سے کم الفاظ کی جمع آوری کو قبول نہیں کرتا، امکانی حساب سے گڑبڑ کرنے کے لیے ٹیکسٹ کو آسانی سے ایڈٹ کیا جا سکتا ہے، اور اس کے پیشہ ورانہ طور پر مرکوز تربیتی سیٹ کی وجہ سے، اسے بچوں کے ذریعے تخلیق کردہ ٹیکسٹ کے ساتھ زیادہ پریشانی ہوتی ہے۔ یا غیر انگریزی بولنے والے۔

یہ فی الحال انسانی ٹیکسٹ کو صرف 9% وقت میں AI سے تیار کردہ کے طور پر جھنڈا لگاتا ہے، اور AI سے تیار کردہ ٹیکسٹ ~26% وقت کی صحیح شناخت کرتا ہے۔ جیسا کہ ماڈل کی طاقت اور دائرہ کار میں اضافہ ہوتا ہے، ان نمبروں میں بہتری آئے گی، لیکن یہ معاملہ ہو سکتا ہے کہ ٹیکسٹ کے پیدا ہونے یا نہ ہونے کا مناسب اندازہ لگانے کے لیے مزید مخصوص ڈیٹیکٹرز کی ضرورت ہو۔

## واٹر مارک کا طریقہ

AI سے تیار کردہ ٹیکسٹ کا پتہ لگانے کا ایک طریقہ یہ ہے کہ ٹیکسٹ تیار کرتے وقت شماریاتی واٹر مارک متعارف کرایا جائے۔ یہ تکنیکیں LLM "وائٹ لسٹ" کا استعمال کر سکتی ہیں، جو اس بات کا تعین کرنے کا طریقہ ہے کہ آیا ٹیکسٹ کسی مخصوص AI ماڈل کے ذریعے تیار کیا گیا ہے۔ واٹر مارک کسی لفظ کے پیدا ہونے سے پہلے "گرین" ٹوکن کے بے ترتیب سیٹ کو منتخب کرکے اور پھر نمونے لینے کے دوران منتخب ٹوکنز کے استعمال کو نرمی سے فروغ دے کر کام کرتا ہے۔ ان وزنی قدروں کا نسلوں کے معیار پر کم سے کم اثر پڑتا ہے، لیکن الگورتھمی طور پر ایک اور LLM (@kirchenbauer2023watermarking) کے ذریعے پتہ لگایا جا سکتا ہے۔

یہ ایک دلچسپ خیال ہے، لیکن اس کے لیے ماڈل کے تخلیق کاروں کو اس فریم ورک کو اپنے LLM میں لاگو کرنے کی ضرورت ہے۔ اگر کسی ماڈل میں واٹر مارک نہیں ہے تو یہ طریقہ کام نہیں کرے گا۔

## جی پی ٹی کا پتہ لگائیں۔

[DetectGPT](https://detectgpt.ericmitchell.ai/)(@mitchell2023detectgpt) طریقہ پچھلے تصورات سے کم سیٹ اپ کے ساتھ AI سے تیار کردہ ٹیکسٹ کا پتہ لگانے کے قابل ہے۔ محققین نے پایا ہے کہ LLM ٹیکسٹ جنریشنز "ماڈل کے لاگ امکانی فنکشن کے منفی گھماؤ والے علاقوں پر قبضہ کرتے ہیں"۔ اس کی وجہ سے، اس بات کا تعین کرنے کے لیے کہ آیا ٹیکسٹ کا ایک بلاک طریقہ کار سے تیار کیا گیا تھا، ایک گھماؤ پر مبنی نظام بنانا ممکن ہے۔

یہ اس ماڈل سے لاگ احتمالات کو کمپیوٹنگ کرکے کام کرتا ہے جس کے بارے میں خیال کیا جاتا تھا کہ ٹیکسٹ تیار کیا ہے اور ان کا موازنہ کسی دوسرے، پہلے سے تربیت یافتہ عام زبان کے ماڈل سے ٹیکسٹ کی بے ترتیب تبدیلیوں سے کرتا ہے۔ اس طرح، DetectGPT اکیلے امکانی منحنی خطوط کا استعمال کرتے ہوئے گزرنے کے پیدا ہونے کے امکان کی نشاندہی کرنے کے قابل ہے!

## نوٹ

ڈیٹیکٹرز کے موضوع اور لوگ ان کو کس طرح دھوکہ دے رہے ہیں اس پر اضافی بحث کے لیے، [یہ مضمون](https://learnprompting.org/docs/miscl/trickery) دیکھیں۔
